수동적인 인공지능 활용에서 능동적인 인공지능 조정으로의 전환을 환영합니다. '디지털 직원'을 이해하기 위해 먼저 일반적인 챗봇과 자율 에이전트 사이의 차이를 먼저 파악해야 합니다. 기존의 대규모 언어 모델(LLM) 상호작용은 반응형이며 단순한 입력 → 출력패턴에 의존하지만, 자율 에이전트는 다음 공식으로 정의된 재귀적 루프 내에서 작동합니다:
$$ \text{목표} + \text{추론} + \text{도구} = \text{결과} $$
1. 대규모 언어 모델을 중심 처리 장치로
이 아키텍처에서는 대규모 언어 모델(LLM)이 '뇌' 또는 중앙처리장치(CPU) 역할을 합니다. 핵심 논리와 언어 처리 능력을 제공하지만, 직원처럼 작동하려면 지속성과 실행을 가능하게 하는 프레임워크가 필요합니다.
2. 에이전트 아키텍처의 세 가지 기둥
이 뇌가 효과적으로 작동하기 위해서는 세 가지 기둥에 의존합니다:
- 계획: 복잡한 목표를 하위 작업들로 분해하는 것.
- 기억: 이전 상호작용과 장기 데이터에서의 맥락을 유지하는 것.
- 행동: 도구를 통해 디지털 세계에서 작업을 수행하는 것.
우리는 이제 단순히 프롬프트를 입력하는 것을 넘어, 환경을 인식하고 오류 발생 시 스스로 수정할 수 있는 시스템을 설계하고 있습니다.
에이전트 로직 구조
질문 1
이 아키텍처에서 자율 에이전트의 '뇌'를 나타내는 것은 무엇인가요?
질문 2
복잡한 프로젝트를 관리 가능한 하위 작업으로 나누는 책임을 지는 기둥은 무엇인가요?
도전 과제: 에이전트 행동 식별하기
자율 에이전트의 워크플로우를 분석하세요.
당신은 인공지능에게 '뉴욕으로 가는 항공편 세 개를 찾아서 가장 저렴한 것을 선택하고, 내 매니저에게 이메일을 작성해라.'라고 요청합니다.
단계 1
이 워크플로우에서 '추론' 단계를 식별하세요.
해답:
추론은 에이전트가 세 개의 항공편 가격을 비교하고 사용자의 기준에 따라 가장 낮은 항공편을 선택할 때 발생합니다.
추론은 에이전트가 세 개의 항공편 가격을 비교하고 사용자의 기준에 따라 가장 낮은 항공편을 선택할 때 발생합니다.